元加强学习(META-RL)是一种方法,即从解决各种任务中获得的经验被蒸馏成元政策。当仅适应一个小(或仅一个)数量的步骤时,元派利赛能够在新的相关任务上近距离执行。但是,采用这种方法来解决现实世界中的问题的主要挑战是,它们通常与稀疏的奖励功能相关联,这些功能仅表示任务是部分或完全完成的。我们考虑到某些数据可能由亚最佳代理生成的情况,可用于每个任务。然后,我们使用示范(EMRLD)开发了一类名为“增强元RL”的算法,即使在训练过程中获得了次优的指导,也可以利用此信息。我们展示了EMRLD如何共同利用RL和在离线数据上进行监督学习,以生成一个显示单调性能改进的元数据。我们还开发了一个称为EMRLD-WS的温暖开始的变体,该变体对于亚最佳演示数据特别有效。最后,我们表明,在包括移动机器人在内的各种稀疏奖励环境中,我们的EMRLD算法显着优于现有方法。
translated by 谷歌翻译
本文解决了开发一种用于垂直起飞和降落(VTOL)无人驾驶飞机(UAV)自动船舶登陆算法的问题,仅使用无人机中的单眼相机进行跟踪和本地化。船舶着陆是一项具有挑战性的任务,这是由于较小的着陆空间,六个自由度船甲板运动,定位的视觉参考有限以及诸如风阵等的对抗环境条件。我们首先开发了一种计算机视觉算法,该算法估计了使用无人机上的单眼视觉摄像头的图像流在着陆平台上在降落平台上的地平线参考栏的相对位置。我们的方法是由实际的船舶着陆程序动机,然后是海军直升机飞行员在跟踪视觉提示的地平线参考栏时的动机。然后,我们开发了一种强大的增强学习(RL)算法,即使在存在诸如风阵的对抗环境条件的情况下,也可以控制无人机朝着着陆平台。我们证明了与基准非线性PID控制方法相比,我们的算法的性能优越自由(DOF)甲板运动。
translated by 谷歌翻译
在集成电路中插入硬件木马(HTS)是一个有害威胁。由于在罕见触发条件下激活HTS,因此使用随机逻辑模拟检测它们是不可行的。在这项工作中,我们设计了一个加固学习(RL)代理,该学习代理绕过指数搜索空间并返回最小的模式集,最有可能检测到HTS。各种基准测试的实验结果证明了我们的RL代理的功效和可扩展性,与国家相比,在维持或改善覆盖范围($ 95.75 \%$)的同时,所需的测试模式数量显着降低($ 169 \ times $)($ 169 \ times $)($ 169 \ times $)($ 169 \ times $)($ 95.75 \%$)。 - 艺术技术。
translated by 谷歌翻译
在本文中,我们考虑了找到一种元学习在线控制算法的问题,该算法可以在面对$ n $(类似)控制任务的序列时可以在整个任务中学习。每个任务都涉及控制$ t $时间步骤的有限视野的线性动力系统。在采取控制动作之前,每个时间步骤的成本函数和系统噪声是对抗性的,并且控制器未知。元学习是一种广泛的方法,其目标是为任何新的未见任务开出在线政策,从其他任务中利用信息以及任务之间的相似性。我们为控制设置提出了一种元学习的在线控制算法,并通过\ textit {meta-regret}表征其性能,这是整个任务的平均累积后悔。我们表明,当任务数量足够大时,我们提出的方法实现了与独立学习的在线控制算法相比,$ d/d/d^{*} $较小的元regret,该算法不会在整个网上控制算法上进行学习任务,其中$ d $是一个问题常数,$ d^{*} $是标量,随着任务之间的相似性的增加而降低。因此,当任务的顺序相似时,提议的元学习在线控制的遗憾显着低于没有元学习的幼稚方法。我们还提出了实验结果,以证明我们的元学习算法获得的出色性能。
translated by 谷歌翻译
强大的增强学习(RL)的目的是学习一项与模型参数不确定性的强大策略。由于模拟器建模错误,随着时间的推移,现实世界系统动力学的变化以及对抗性干扰,参数不确定性通常发生在许多现实世界中的RL应用中。强大的RL通常被称为最大问题问题,其目的是学习最大化价值与不确定性集合中最坏可能的模型的策略。在这项工作中,我们提出了一种称为鲁棒拟合Q-材料(RFQI)的强大RL算法,该算法仅使用离线数据集来学习最佳稳健策略。使用离线数据的强大RL比其非持续性对应物更具挑战性,因为在强大的Bellman运营商中所有模型的最小化。这在离线数据收集,对模型的优化以及公正的估计中构成了挑战。在这项工作中,我们提出了一种系统的方法来克服这些挑战,从而导致了我们的RFQI算法。我们证明,RFQI在标准假设下学习了一项近乎最佳的强大政策,并证明了其在标准基准问题上的出色表现。
translated by 谷歌翻译
本文考虑了以分布式和计算障碍方式组成的大规模网络系统的稳定区域的问题。估计一般非线性系统稳定区域的一种标准方法是首先找到该系统的Lyapunov函数,并将其吸引区域描述为稳定区域。但是,用于查找lyapunov函数的经典方法,例如平方的方法和二次近似,要么不扩展到大型系统,要么对稳定区域进行非常保守的估计。在这种情况下,我们通过利用子系统的耗散性结构来提出一种新的基于分布式学习的方法。我们的方法有两个部分:第一部分是一种分布式方法,用于学习所有子系统的存储功能(类似于Lyapunov函数),第二部分是一种分布式优化方法,可以使用该系统找到网络系统的Lyapunov功能学习子系统的存储功能。我们通过微电网网络中的广泛案例研究证明了我们提出的方法的出色表现。
translated by 谷歌翻译
我们研究具有多个奖励价值函数的马尔可夫决策过程(MDP)的政策优化,应根据给定的标准共同优化,例如比例公平(平滑凹面标量),硬约束(约束MDP)和Max-Min Trade-离开。我们提出了一个改变锚定的正规自然政策梯度(ARNPG)框架,该框架可以系统地将良好表现的一阶方法中的思想纳入多目标MDP问题的策略优化算法的设计。从理论上讲,基于ARNPG框架的设计算法实现了$ \ tilde {o}(1/t)$全局收敛,并具有精确的梯度。从经验上讲,与某些现有的基于策略梯度的方法相比,ARNPG引导的算法在精确梯度和基于样本的场景中也表现出卓越的性能。
translated by 谷歌翻译
该论文讨论了一种基于智能视觉的控制解决方案,用于自主跟踪和降落垂直起飞和降落(VTOL)在船上具有无人驾驶飞机(UAV)的无人使用,而无需使用GPS信号。中心想法涉及自动化海军直升机船着陆程序,该程序将飞行员利用该船作为远程跟踪的视觉参考;但是,是指大多数称为“地平线棒”的海军船上安装的标准化视觉提示,以进行最终进近和着陆阶段。该想法是使用与机器视觉集成的独特设计的非线性控制器实现的。视觉系统利用基于机器学习的对象检测来进行远程船舶跟踪和经典的计算机视觉,以在最终进近和着陆阶段使用地平线估算飞机相对位置和方向。非线性控制器根据视觉系统估计的信息运行,即使在存在不确定性的情况下,也证明了强大的跟踪性能。开发的自动船舶着陆系统是在配备了板载摄像头的四轮摩托车无人机上实施的,在移动的甲板上成功证明了进近和着陆,该甲板模仿了现实的船甲板运动。进行了广泛的模拟和飞行测试,以证明垂直着陆安全性,跟踪能力和着陆精度。
translated by 谷歌翻译
我们考虑了上下文匪徒的违规评估(OPE)问题,其中目标是使用日志记录策略收集的数据估计目标策略的值。 ope的最流行方法是通过组合直接方法(DM)估计和涉及逆倾向得分(IP)的校正项而获得的双重稳健(DR)估计器的变型。现有算法主要关注降低大型IPS引起的博士估算器方差的策略。我们提出了一种称为双重强大的新方法,具有信息借用和基于上下文的交换(DR-IC)估计,专注于减少偏差和方差。 DR-IC估计器用参数奖励模型替换标准DM估计器,该参数奖励模型通过依赖于IPS的相关结构从“更近的”上下文中借用信息。 DR-IC估计器还基于特定于上下文的切换规则在该修改的DM估计器和修改的DR估计器之间自适应地插值。我们对DR-IC估算员的表现提供了可证明的保证。我们还展示了DR-IC估计的卓越性能与艺术最先进的OPE算法相比,在许多基准问题上的算法相比。
translated by 谷歌翻译
鲁棒马尔可夫决策过程(RMDP)框架侧重于设计对参数不确定因素而稳健的控制策略,这是由于模拟器模型和真实世界的不匹配。 RMDP问题通常被制定为MAX-MIN问题,其中目标是找到最大化最坏可能模型的值函数的策略,该策略在于围绕标称模型设置的不确定性。标准强大的动态编程方法需要了解标称模型来计算最佳的强大策略。在这项工作中,我们提出了一种基于模型的强化学习(RL)算法,用于学习$ \ epsilon $ - 当标称模型未知时的高新策略。我们考虑了三种不同形式的不确定集,其特征在于总变化距离,Chi-Square发散和kL发散。对于这些不确定性集中的每一个,我们提供了所提出算法的样本复杂性的精确表征。除了样本复杂性结果之外,我们还提供了一个正式的分析论证,就使用强大的政策的益处。最后,我们展示了我们对两个基准问题的算法的性能。
translated by 谷歌翻译